Mise en situation

Le web regorge de pages sur tous les sujets, des contributions multiples et variées qui changent souvent. Leur point commun : elles sont écrites en langage HTML et possèdent des liens les reliant les unes aux autres.
Comment trouver l’information pertinente sur des millions de serveurs ?

Un moteur de recherche (Search Engine) est un outil qui parcourt le web et indexe automatiquement le contenu qu’il visite. Il permet d’accéder à différentes ressources comme des textes, des vidéos, des images, de la musique…
Il fonctionne suivant trois opérations essentielles :

  • l’exploration (Crawling) : le moteur de recherche envoie ses robots d’indexation (spider, crawler, bot) de lien en lien pour rechercher toutes les données des pages à archiver (mots clés, métadonnées) ;
  • l’indexation (Indexing) : le moteur de recherche indexe tous les mots dans une base de données suivant des critères de poids ou notoriété ;
  • la recherche (Ranking) : le moteur de recherche doit trier et identifier les pages à partir des mots utilisés dans la requête ainsi que ses tables d’index.


20 milliards de sites sont visités (crawlés) par Google, chaque jour.

Source : https://lesmanuelslibres.region-academique-idf.fr
Télécharger le manuel : https://forge.apps.education.fr/drane-ile-de-france/les-manuels-libres/snt-seconde ou directement le fichier ZIP
Sous réserve des droits de propriété intellectuelle de tiers, les contenus de ce site sont proposés dans le cadre du droit Français sous licence CC BY-NC-SA 4.0